에임즈(Ames) 시에 새로운 보험상품을 출시하려 합니다.
그런데 이 지역은 자재별 화재 위험도가 어떤지,
보험금은 얼마로 책정해야 수익이 날 수 있을지,
아무도 정확히 모릅니다.
최근 기후 변화와 노후화된 주택 문제로,
미국 내 화재 사고가 증가하고 있습니다.
캘리포니아 산불 사례처럼, 보험사는 막대한 손실을 입을 수 있습니다.
그렇다면, 우리는 사전 예측과 리스크 분석을 통해
보다 정밀한 보험료 책정이 가능할까요?
1️⃣ 화재 위험 지역 시각화
2️⃣ 크기 대비 가격 분포 분석
3️⃣ 화재 위험 지표와 가격 상관관계 분석
4️⃣ 보험료 산정 모델링
5️⃣ 손익분기점 분석
| 위험도1 | 위험도2 | 위험도3 | 위험도4 | 위험도5 | |
|---|---|---|---|---|---|
| 지붕 자재 (30%) | Metal | CompShg, Tar&Grv | Roll, Membran | WdShngl | WdShake |
| 외벽 재질(30%) | MetalSd, CemntBd, BrkFace… | ImStucc,Stucco | VinylSd, | HdBoard, AsphShn | Wd Sdng, WdShing, Plywood |
| 외벽 장식 재질(10%) | MetalSd,CemntBd,BrkFace… | Stucco, ImStucc | VinylSd | HdBoard, AsphShn | Wd Sdng, WdShing, Plywood |
| 외벽 마감재(10%) | BrkFace,Stone,BrkCmn | ||||
| 목재 바닥 넓이(20%) | 0 | 1~100 | 101~250 | 251~400 | 400 |
📎 자세한 기준은 NFPA 공식 가이드에서 확인할 수 있습니다.
🔗 NFPA - Preparing Homes for Wildfire
기존 데이터셋의 거래금액(SalePrice)은 땅 면적이나 건물 크기 등의 요소를 반영하지 않은 총액 기준
우리는 이를 보완하기 위해 땅의 면적(LotArea)과 건물의 총면적(TotalSF)을 고려하여 단위 면적당 가치(평단가)로 재구성함
이로 인해 단순 부동산 거래금액이 아닌 실제 자산 가치 기반의 지역 특성을 반영할 수 있었음
결과적으로, 부촌 지역과 일반 지역 간의 가치 분포 차이가 두 지도로 명확히 구분됨
anova result: sum_sq df F PR(>F)
C(Risk_Level) 1.140682e+07 3.0 50.181071 1.629110e-31
Residual 1.949590e+08 2573.0 NaN NaN
검정통계량: 0.935, 유의확률: 0.000
| 구분 | 내용 |
|---|---|
| 해석 | - 귀무가설: 데이터가 정규분포를 따른다. - 대립가설: 데이터가 정규분포를 따르지 않는다. - 유의확률(p=0.000)이 유의수준(α=0.05)보다 매우 작음. - 따라서 귀무가설을 기각함. |
| 결론 | - 데이터는 정규분포를 따르지 않음. |
| 앞으로의 방향 | - 정규성 가정이 위배되므로 모수적 검정(t-검정, ANOVA 등) 적용 시 주의 필요 - 비모수적 방법(Kruskal-Wallis 등) 고려 권장 |
검정통계량: 68.78141877647354, p-value: 7.78327128923569e-15
| 구분 | 내용 |
|---|---|
| 해석 | - 귀무가설: 모든 그룹의 분산이 동일하다. - 대립가설: 적어도 하나의 그룹이 다른 분산을 가진다. - 검정통계량: 68.78141877647354 - 유의확률(p=7.78e-15)이 유의수준(α=0.05)보다 매우 작음. - 따라서 귀무가설을 기각함. |
| 결론 | - 위험도 그룹 간 분산이 동일하지 않음. - 등분산성 가정이 위배됨. |
| 앞으로의 방향 | - 등분산성 가정이 위배되므로 표준 ANOVA 사용 시 주의 필요 - 등분산성을 가정하지 않는 Welch ANOVA 고려 - 비모수적 방법(Kruskal-Wallis 등) 사용 권장 - 데이터 변환(로그 변환 등)을 통한 분산 안정화 고려 가능 |
위험도별 주택 평단가의 차이가 통계적으로 유의미한지 확인| 항목 | 값 | |
|---|---|---|
| 0 | 검정통계량 (H) | 178.903747 |
| 1 | p-value | 0.0 |
| 2 | 결론 | ✔️ 그룹 간 차이가 유의함 (p < 0.05) |
Dunn-test(비모수 사후검정) 결과
일부 그룹 간 유의한 차이 존재하는지 검정
비모수 사후검정 실시 결과 위험도 2와 기타 위험도 간의 차이만 유의미함
위험도 1,3,4간의 차이는 유의미 하지 않음
| 1.0 | 2.0 | 3.0 | 4.0 | |
|---|---|---|---|---|
| 1.0 | 1.000000e+00 | 9.105248e-17 | 1.000000e+00 | 1.941157e-01 |
| 2.0 | 9.105248e-17 | 1.000000e+00 | 3.678633e-31 | 4.735048e-08 |
| 3.0 | 1.000000e+00 | 3.678633e-31 | 1.000000e+00 | 2.790989e-01 |
| 4.0 | 1.941157e-01 | 4.735048e-08 | 2.790989e-01 | 1.000000e+00 |
✅ 위험도 2등급 주택은
📈 다른 등급과 비교해 중앙값 기준으로 통계적으로 유의미하게 높은 가격을 보였습니다.
❗ 하지만,
그 외 위험도 간의 중앙값 가격 차이는 통계적으로 유의하지 않았습니다.
👉 따라서,
위험도 2에 해당하는 주택은 상대적으로 더 비싼 편이라고 해석할 수 있습니다.
🧱 부동산 가격은 자재 외에도
위치, 건물 크기, 연식, 토지 조건, 지역 수요 등 다양한 요인의 영향을 받습니다.
❓ 즉, 자재 기반의 위험도만으로는
주택 가격의 모든 변동성을 충분히 설명하기 어렵습니다.
📌 따라서,
위험도는 ’가격에 영향을 주는 요인 중 하나’일 뿐이며,
단독 요인으로 해석하는데 한계가 있다.
MSE: 25903.67405431691
RMSE: 160.94618372088513
\(R^2\): 0.9999953867303233
| 위험도1 | 위험도2 | 위험도3 | 위험도4 | 위험도5 | |
|---|---|---|---|---|---|
| 가중치 수치 | 0.95 | 0.975 | 1 | 1.025 | 1.05 |
🔥 화재(전소) 발생률이 약 0.368%를 초과하면 보험사는 손해를 볼 가능성 있음
👉 즉, 10,000가구 중 37가구 이상 화재 발생 시 손실 발생
✅ 0.368% 이하로 화재 발생률을 관리할 경우 수익 확보 가능
📊 그러나 본 수치는 “평균 피해 금액”을 기반으로 계산된 기대값이며,
절대값이 아닌 통계적 평균 기준임